重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5% 重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5% 关键词: AI,模型训练,Grouped-head latent Attention,GTA GTA 工作由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,提出了一种高效的大模型框架,显著提升模型性能与计算效率。 来自主题: AI技术研报 7271 点击 2025-07-23 10:15